I. Ozkan, PhD
MIS
Çankaya Üniversitesi
iozkan@cankaya.edu.tr
Bahar 2025
Özellikleri (girdiler, features) veriden elde etmeyi kapsar
Aşağıdaki gibi tahmine dayalı görevleri içerir:
Tahmin
Sınıflandırma
Öngörü (Zaman Kalırsa Giriş Yapılacaktır)
Anomali Tespiti (Anomaly Detection, bu ders kapsamında ele alınmayacaktır)
Eksik Veri Tamamlama (Missing Data Imputation, ilk adımlar olarak kısmen ele alınacaktır)
Sıralama (Ranking, bu ders kapsamında ele alınmayacaktır)
Öneri/Karar (Recommendation/Decision)
Tüm sosyal, biyolojik, kimyasal veya fiziksel süreçler veri olarak adlandırdığımız gözlemlerle sonuçlanır
Veri setleri genellikle eyleme dönüştürülebilir bilgi elde etmek için kullanılır, bu da model oluşturmayı, görselleştirmeyi ve iletişimi gerektirebilir
Veri setleri, eyleme dönüştürülebilir bilgi elde etme sürecinde sıklıkla kaybolur
Veriyi etkili bir şekilde yeniden kullanmak için bazı kurallar göz önünde bulundurulmalıdır
Veri Kaydı (Orijinal Veri)
Mümkünse metin veya metin uyumlu formatlarda saklayın (csv, tsv, dat vb.)
Her zaman bir yedeğiniz olsun
Ham veriyi değiştirmeyin
Veri Organizasyonu
Veri Yapısı: geniş
, uzun
veri (ele
alınacaktır), düzenli
veri formatı, iç içe geçmiş yapı,
satır
, sütun
ve değer
etiketleri
(küçük harf, boşluk içermeyen vb.)
Klasör Yapısını tasarlayın
Veri toplama zamanını kaydedin
Ham verilerin klasörlerinde verileri özetlemeyin
Veri ile Hesaplama
Veri hataları sistematik olmalıdır, rastgele olmamalıdır
Şu tür isimlerden kaçınılmalı:
Boşluk içeren isimler
Özel semboller içeren isimler: ?, $, *, +, #, (, ), -, /, }, {, |, >, <**
Sayı ile başlayan isimler: bunun yerine harf kullanın
Gerekirse, sayıyı sonda kullanın, örn:
sehir_1
Sütun isimleri benzersiz olmalıdır (sütunlar değişken). Yinelenen isimlere olmamalı
büyük/küçük harf duyarlıdır
Verinizde boş satırlar bulundurulmamalı
Dosyanızdaki tüm yorumları silinmeli
Tarihler için dört haneli format kullanılmalı
Veri Toplama/Hazırlık: İş Anlayışı
Keşifsel Veri Analizi: Veri Anlayışı
Ön İşleme: Veri Hazırlığı
Bilgi Çıkarımı: Modelleme
Test ve Doğrulama
Analitik şu unsurları içermelidir:
- \(Bilgi/Karar \implies \;Eylem\)
Veri Zengin Ortam
İnsan Bilgi/Uzmanlığının Eksikliği
İnsan Bilgi/Uzmanlığını Açıklamanın Zorluğu
Zamanla Değişen Dinamik Sistemler
Uyum Gereksinimi
Öğrenme:
Denetimli Öğrenme (Supervised Learning)
Denetimsiz Öğrenme(Unsupervised Learning)
Yarı-Denetimli Öğrenme (Semi-Supervised Learning)
Pekiştirmeli Öğrenme (Reinforcement Learning
Derin Öğrenme (Deep Learning)
Deneyimsel Öğrenme (Experiental Learning)
vb.
Data-Model
Regresyon
Sınıflandırma
Kümeleme
vb.
Büyük Miktarda Veri Toplanmakta
Çok Sayıda Değişken
Veriden öğrenme giderek daha popüler hale gelmekte
Öğrenme algoritmaları daha erişilebilir hale gelmekte
Bilgisayarlar ve Yazılımlar daha güçlü veri analitiği için hazır
Modellemede farklı veri türlerini kullanımına ihtiyac yükselmekte
Veri desene/örüntüye (pattern) ve [umarız] teoriye dönüşebilir
…
AÇIK TARTIŞMA (BU KONU DAHA SONRA ELE ALINACAKTIR)
Denetimli Öğrenme | Denetimsiz Öğrenme | Pekiştirmeli Öğrenme |
---|---|---|
{Y;X} mevcut | {X} mevcut | Örn: Oyun |
\(E[Y \: | X]\) | Verideki Örüntüler | |
\(P(Y=y \: |X=x)\) | Homojen Gruplar | |
Örn: Regresyon | Örn: Kümeleme |
\[Veri=Örüntü(ler)+Hata(lar)\]
Örnek: Standart Regresyon
\[y=\beta_0+\beta_1 x_1+\beta_2 x_2+ \cdots + \beta_k x_k + \varepsilon\]
durumunda bazı \(k>>2\)
yani
\[ y=\underbrace{\beta_0+\beta_1 x_1+\beta_2 x_2+ \cdots + \beta_k x_k}_\text{Örüntü}+\underbrace{\varepsilon}_\text{Hata}\] Başka bir gösterimle
\[\mu(X)=E[Y|X=x]=\hat \beta_0+\hat \beta_1 x_1+\hat \beta_2 x_2+ \cdots +\hat \beta_k x_k\]
\(E[\varepsilon]=0\) ve \(\hat \beta_i\) tahmin edilmiş katsayılar
Nasıl tahmin edilecek, \(\hat \beta_i\):
\(MSE=\frac{1}{N+1} \sum_{i=0}^{N} (y_i-\mu(x_i))^2=\frac{1}{N+1} \sum_{i=0}^{N} \varepsilon_i^2\)
Korelasyon Nedensel İlişki Anlamına Gelmez
Anlamı:
Korelasyon ve Nedensellik tartışılmalıdır
Hata yapısı önemlidir
Modelleme için davranışsal değerlendirmeler kritik öneme sahiptir
Veri/Çıkarım | Nedensel | Öngörücü |
---|---|---|
Gözlemsel | İyi/Kötü | İyi/Kötü |
Deneysel | İyi/Kötü | İyi/Kötü |
İki değişken düşünelim, \(y\) ve \(x\), ve aralarındaki nedensellik ilişki yapısı için tüm alternatifler:
Potansiyel karıştırıcı (confounding) faktörlerin (bağımlı ve bağımsız değişkenleri etkileyerek arada korelasyon oluşturan faktörler) etkilerini ortadan kaldırmak için deney yapılabilir (bazı durumları çözebilir)
Örneklemin rastgele bölünmesi
Bu durumda:
\(X \implies Y\)
\(Y\), \(X\)’e neden olmaz çünkü örneklem şansa bağlı olarak bölünmüştür, bu nedenle şans \(X\)’e neden olur
\(Z\) her ikisine de (mümkün) neden olabilir ancak şansa bağlı olarak
Bu hâlâ şansa bağlı olabilir
Seçime bağlı olabilir, ancak deneyci tarafından dışlanmalıdır
Veriler kısıtlanabilir
Karşılaştırılacak grupların ortak değerlere sahip değişkenler olacak şekilde ayrıştırılabilir
Veri/Çıkarım | Nedensel | Öngörücü |
---|---|---|
Gözlemsel | Kötü | İyi |
Deneysel | İyi | Kötü |
İş dünyasında, Gözlemsel Veri seti genellikle Nedensel Çıkarım için kullanılır
\(Teoriler \implies Veri \implies Model\)
Nedensel yapı \(Teoriler\) tarafından belirlenebilir
AÇIK TARTIŞMA
Bu ders için kullanılacak yazılım: ve RStudio